Loading...
机构名称:
¥ 1.0

大多数强化学习算法都寻求解决给定任务的单一光学策略。但是,学习各种解决方案通常是有价值的,例如,使代理商与用户更具吸引力的互动,或者证明政策的鲁棒性使人意外的扰动。我们提出了多样性指导的政策优化(DGPO),这是一种在政策算法中,发现了解决给定任务的多种策略。与先前的工作不同,它通过在一次运行中训练的共享策略网络来实现这一目标。特定于此,我们根据信息理论多样性目标设计了固有的奖励。我们的最终目标交替限制了策略的多样性和外部奖励。我们通过将其作为概率推理任务施放,并使用策略迭代来最大化派生的下限,从而解决了受限的优化问题。实验结果表明,我们的方法有效地发现了各种强化学习任务中的各种策略。与基线方法相比,DGPO获得了可比的奖励,同时发现了更多不同的策略,并且通常具有更好的样本效率。

arxiv:2207.05631v3 [cs.lg] 2024年1月5日

arxiv:2207.05631v3 [cs.lg] 2024年1月5日PDF文件第1页

arxiv:2207.05631v3 [cs.lg] 2024年1月5日PDF文件第2页

arxiv:2207.05631v3 [cs.lg] 2024年1月5日PDF文件第3页

arxiv:2207.05631v3 [cs.lg] 2024年1月5日PDF文件第4页

arxiv:2207.05631v3 [cs.lg] 2024年1月5日PDF文件第5页

相关文件推荐

2024 年
¥22.0
2024 年
¥2.0
2024 年
¥2.0
2024 年
¥2.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥5.0